DCASE 2024の上位を見て方法を知る - main-custard

DCASE 2024の上位を見て方法を知る

from 卒論におけるSEDの工夫を考える

DCASE 2024の上位を見て,方法を知る

モデルのアーキテクチャ

CRNN + Transformerが基本

事前学習済みモデルとしてTransformerを利用

TransformerとCNNから得られた特徴量を結合し,RNNに入力する

利用モデル

* CRNNについて調査が必要

事前学習済みTransformer

ATST/PaSST/BEATs

要調査

LSTMは使わない?

VGGSKやFDYCRNN,Conformer

各モジュールの役割

Transformerでグローバルを,CNNでローカルな特徴を取り,RNNで全体の時間的な変化を取る

事前学習済みモデルはグローバルな特徴抽出に優れる

CRNNはよりローカルで細かい特徴抽出が可能

! 各モジュールの役割を理解する: もう少し細かい理解が必要.特にTransformerをなぜ音の解析に使うか

リソースまとめ

ベースライン

DCASE 2024 TASK 4: SOUND EVENT DETECTION WITH HETEROGENEOUS DATA AND MISSING LABELS

上位の報告書

x 01: Improving Audio Spectrogram Transformers for Sound Event Detection Through Multi-Stage Training

> 02: SELF TRAINING AND ENSEMBLING FREQUENCY DEPENDENT NETWORKS WITH COARSE PREDICTION POOLING AND SOUND EVENT BOUNDING BOXES

2節を読む > 後で良い. 系統が全く異なっている

x 03: LOCAL AND GLOBAL FEATURES FUSION FOR SOUND EVENT DETECTION WITH HETEROGENEOUS TRAINING DATASET AND POTENTIALLY MISSING LABELS

x 03-2: SOUND EVENT DETECTION BASED ON AUXILIARY DECODER AND MAXIMUM PROBABILITY AGGREGATION FOR DCASE CHALLENGE 2024 TASK 4

x 04: SOUND EVENT DETECTION WITH HETEROGENEOUS TRAINING DATASET AND POTENTIALLY MISSING LABELS FOR DCASE 2024 TASK 4

x 04-2: SOUND EVENT DETECTION ENHANCED BY SCENE INFORMATION FOR DCASE CHALLENGE 2024 TASK4

x 05: TECHNICAL REPORT ON LEE SUBMISSION: SOUND EVENT DETECTION USING CONFORMER AND ATST FRAMEWORK FOR DCASE CHALLENGE 2024 TASK 4

報告書の所感

ベースラインが相当優秀

ほとんど全ての報告書が,ベースラインの構造をあまり崩していない

e ベースラインの追試をまず行った方が良いと思う

同様の学習手法で他のモデルの精度を確認する方針がいいのでは

! CRNNのリソースを読む